'''RDD数据计算_distinct
distinct算子：对RDD数据进行去重，返回新的RDD
语法：rdd.distinct()   '''
from pyspark import SparkConf, SparkContext
# 使用os 配置python安装位置， 帮助spark找到python;
import os
os.environ['PYSPARK_PYTHON'] = 'D:\\yfxdeve\\python\Python39\\python.exe'

conf = SparkConf().setMaster("local[*]").setAppName("test_park")
sc = SparkContext(conf=conf)

# 准备一个RDD
rdd1 = sc.parallelize([1,3,4,3,2,4,2,1,3,2,1,23])
rdd2 = rdd1.distinct()
print(rdd2.collect())  #去重结果： [1, 2, 3, 4, 23]


# 关闭
sc.stop()